Inducción de constituyentes sintácticos en español con técnicas de clustering y filtrado por información mutua

نویسندگان

  • Fernando Balbachan
  • Diego Dell'Era
چکیده

El Argumento de la Pobreza de los Estímulos (Argument from the Poverty of Stimulus, APS) se presenta como el gran campo de debate epistemológico entre el paradigma simbólico y el paradigma estadístico en lingüística computacional (Pullum y Scholz 2002). Desde 2000 en adelante aparecieron algunos trabajos dentro del paradigma estadístico que se propusieron atacar el Argumento de la Pobreza de los Estímulos a partir de la postulación de algún algoritmo general no supervisado de adquisición integral del lenguaje. Entre los aportes más importantes, la tesis de doctorado de Clark (2001) recurre a diversas técnicas estadísticas para dar con un algoritmo general no supervisado de inducción del lenguaje, y en particular, de una gramática independiente de contexto para el inglés. Clark (2001) trabaja con distintas técnicas de inducción para cada fenómeno lingüístico modelizado: morfología mediante modelos markovianos, categorización (POS-tagging) mediante clustering, etc. Puntualmente, en este trabajo estamos interesados en la inducción de constituyentes sintácticos, dado un corpus etiquetado por clase de palabras (POS-tagged), como paso previo al procedimiento de inducción de una gramática independiente de contexto. En su propia tesis, el autor reconoce que es necesaria una mayor evidencia translingüística que apoye la plausibilidad psicolingüística de un enfoque como el suyo. Actualmente, no existen trabajos que se hayan propuesto probar el enfoque de Clark (2001) para la inducción de sintaxis en lenguas flexivas y con orden libre de constituyentes, como el español. Así pues, nuestro trabajo se propone contribuir con dicha evidencia translingüística, estudiando la factibilidad de aplicación del algoritmo de inducción de constituyentes de Clark (2001) para el español. El algoritmo de Clark (2001) que nos ocupa consiste en aplicar técnicas de clustering K-means para agrupar secuencias de etiquetas de clase de palabra, según su información distribucional. Luego, se procede a filtrar los resultados para encontrar clusters que efectivamente se correspondan con grupos de constituyentes, recurriendo a un criterio de información mutua entre los símbolos inmediatamente anteriores y posteriores a dichas secuencias. Este criterio de filtrado evita el sesgo de un corpus escaso, al tiempo que logra distinguir la dependencia buscada entre los límites de las secuencias candidatas a constituyentes por sobre el umbral de la entropía natural de símbolos que co-ocurren a una cierta distancia en el lenguaje (Li 1990). Nuestra implementación del algoritmo ha sido evaluada en un corpus de dimensiones prototípicas, con resultados prometedores. Se obtuvo una cobertura de 74%, una precisión de 58% y una medida F de 65%, en la etapa prototípica. Estos resultados alientan la continuidad del trabajo de investigación a largo plazo, con la meta de lograr un robusto algoritmo de adquisición integral del lenguaje para el español.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Recomendaciones contextuales basadas en el enfoque de post-filtrado

Resumen. Hoy en día, los sistemas de recomendación son utilizados en diferentes tipos de aplicaciones. Un sistema de recomendación de restaurantes proporciona recomendaciones considerando los gustos y preferencias del usuario con el propósito de facilitar al usuario la selección de restaurantes que posteriormente visitará. El objetivo de este trabajo es desarrollar una aplicación para hacer rec...

متن کامل

Clustering Iterativo de Textos Cortos con Representaciones basadas en Conceptos

Resumen La tendencia actual a trabajar con documentos cortos (blogs, mensajes de textos, y otros), ha generado un interés creciente en las técnicas de procesamiento automáticas de documentos con estas caracteŕısticas. En este contexto, el “clustering” (agrupamiento) de textos cortos es un área muy importante de investigación, que puede jugar un rol fundamental en organizar estos grandes volúmen...

متن کامل

Personalización estructural basada en criterios de usabilidad

El filtrado personalizado en aplicaciones Web consiste básicamente en la selección un subconjunto de los elementos de un gran conjunto de objetos, de acuerdo a las características del usuario. Las técnicas más habituales para realizarlo, como son el filtrado basado en contenidos o el basado en las preferencias de grupos, utilizan de manera directa o indirecta información sobre el dominio de la ...

متن کامل

Detección de barras rotas en motores de inducción utilizando SMCSA (Square Motor Current Signature Analysis)

Resumen. Los motores de inducción actualmente son la máquina más ampliamente usada en el campo industrial, por su robustez y fácil instalación. Es por eso que la detección de fallas toma un papel importante para un correcto mantenimiento y por consecuente el alargamiento de la vida útil del motor. Una de las principales técnicas existentes para la detección de fallas en motores de inducción es ...

متن کامل

Aplicación de Técnicas de Recuperación de Información a un Glosario de Términos de Internet Desarrollado Utilizando Tecnología JSP

Resumen. En este artículo se describe un sistema que facilita las consultas a un glosario de términos sobre Internet publicado por la Asociación de Técnicos de Informática (ATI). La aplicación permite el acceso a las definiciones de cualquiera de los términos, escritos tanto en inglés como en español. Además, se facilita el mantenimiento del glosario, permitiendo publicar automáticamente nuevos...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Linguamática

دوره 2  شماره 

صفحات  -

تاریخ انتشار 2010